Model Selection

Iterative DPO

# Iterative DPO

Llama 3 8B SFR SFT R

A supervised fine-tuned model based on LLaMA-3-8B, developed by Salesforce, for the supervised fine-tuning phase in reinforcement learning from human feedback (RLHF) workflows.

Large Language Model

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase